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RECONNAISSANCE VOCALE POUR 
LES LARGE S VOCABULAIRES DYNAMIQUES 

La presente invention se rapporte au domaine de la 
5 reconnaissance vocale. 

La prSsente invention se rapporte plus 
particuli&rement au domaine des interfaces vocales. Elle 
presente 1 ' avantage d' etre utilisable ind^pendarament du 
contexte de 1 ' application vocale particuli^re : systeme de 
10 reconnaissance de la parole pour serveur t^lephonique , 
dict^e vocale, systdme de commande et controle embarqu<§, 
indexation d' enregistrements... 

Les logiciels commerciaux actuels de reconnaissance de 
15 la parole sont bases sur 1' usage de r^seaux de Markov caches 
(HMM pour Hidden Markov Model en anglais) pour decrirfe* le 
vocabulaire a reconnaitre, et sur un decodage utilisant. un 
algorithme de type Viterbi pour associer a , chaque enoncet une 
phrase de ce vocabulaire. 
20 Les rSseaux markoviens en question utilisent le plus 

souvent des 6tats a densite continue. 

Le vocabulaire de 1 ' application , qu'il soit a 
l'origine base' sur des grammaires ou sur des modeles de 
langage stochastiques , est compile en un r^seau d'etat s 
25 fini, avec un phoneme de la ' langue utilisee & chaque 
transition du reseau. Le remplacement de chacun de ces 
phonemes par un reseau marJcoviert elementaire qui represente 
ce phoneme dans son contexte de coart iculation, produit 
finalement un grand rlseau markovien sur lequel le decodage 
30 de Viterbi s' applique. Les reseaux elementaires eux-memes 
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ont ete appris gr^ce a un corpus d' apprentissage et avec un 
algorithme d' apprentissage raaintenant bien connu de type 
Baum-Welsh, par exemple. 

Ces methodes aujourd'hui class iques sont decrites par 
5 exemple dans l'ouvrage de reference de Rabiner, et 1' usage 
de modeles de langage dans celui de F. Jelinek. 

Par souci de completude, nous allons neanmoins decrire 
a nouveau de maniere simplifiee les differents composants 
d'un moteur de reconnaissance vocale actuel, dans un exemple 
10 particulier d' usage. 

Un signal de parole est conceptuellement une suite de 
phonemes continue ou interrompue par des pauses, des 
silences ou des bruits. Les proprietes acoustiques du signal 

15 de parole peuvent, au moins pour les voyelles, etre 
consid^rees comme stables sur des durees de 1'ordre de 30 
ms. Un signal issu du telephone, echantillonne a 8 kHz, va 
done etre segment e en trames de 2 56 echantillons (32 ms) , 
avec un recouvrement de 5 0 % pour assurer une certaine 

20 continuity. L' information phonetique est ensuite extraite de 
chacune de ces trames par le calcul, par exemple dans le cas 
d' implementation dScrit ici, des 8 premiers MFCCs (Mel 
Frequency Cepstral Coefficients, voir [Richard]) , de 
l'energie de la trame, et des derivees premieres et secondes 

25 de ces 9 grandeurs. Chaque trame est ainsi representee, 
toujours dans cet exemple particulier, par un vecteur de 
dimension 27 appele vecteur acoustique. En raison des 
variations inter- et intra- locuteur , des conditions 
d' enregistrement , etc. dans les signaux de parole, un 

3 0 phoneme ne sera pas represents par un point dans cet espace, 
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mais par un nuage ■ de points, autour d'une certaine moyenne 
avec un certain Stalement. La distribution de chaque nuage 
definit la densite de probability d' apparition du phoneme 
associe. Si cette extraction par MFCC est judicieuse, on 
5 doit obtenir dans cet espace un ensemble de classes 
relativement compactes et separSes les unes des autres, 
chacune correspondant a un phoneme . 

Apres cette phase d' extraction acoustique, le signal 
de parole est done decrit par uiie suite de vecteurs 
10 acoustiques, et le travail de reconnaissance consiste 

determiner quelle suite de phonemes est, de la fagon la plus 
probable, associSe 3. cette suite de vecteurs acoustiques,, 

Conceptuellement done, un signal de parole est une 

15 suite de phondmes continue ou interrompue par des silences, 
des pauses ou du bruit - Le mot « zlro » par exemple -est 
constitue des phonemes [z] , [e] , [r] , [o] . On pou^rkit 
imaginer un reseau de Markov gauche-droite & 4 Stats, chaque 
etat etant associS I un de ces phondmes, dans lequel on ne 

20 permettrait aucun saut au-dessus d'un Stat. Avec un modele 
entralnS, on pourrait realiser grace & 1'algorithme de 
Viterbi un « alignement » d'un nouvel enregistrement , e'est- 
&-dire determiner le phoneme associe §l chacune des trames. 
Cependant & cause des phSnom^nes de coarticulation entre 

25 phondmes (modification des caractSristiques acoustiques d'un 
phoneme lors du changement de forme du conduit vocal entre 
deux sons stables), il est necessaire d'associer plusieurs 
etats a un meme phoneme , pour prendre en compt^ 1' influence 
du contexte. On obtient ainsi des etats contextuels 

30 d'entrSe, des etats dit « cibles », qui correspondent §. la 
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partie stable du phoneme, mais qui peuvent dependre elle- 
mSme des phenomenes de coarticulation, de telle sorte qu'il 
y a en general plusieurs cibles, et des £tats contextuels de 
sortie. Dans cet exemple particulier, on peut done par 
5 exemple utiliser des reseaux markoviens el^mentaires en 
forme de papillons pour modeliser les phonemes 61ementaires 
de la langue. 

En reprenant 1' exemple precedent, on aurait par 
exemple pour le phoneme [e] un reseau tel qu'illustre Figure 
10 1. 

On aurait 6galement par exemple pour le phonSme [z] un 
reseau tel qu'illustre Figure 2. 

De m§me, chacun des phonemes utilises pour decrire la 
langue en question est associe a ce type de reseau 
15 markovien, different dans sa forme mais presentant tou jours 
des entrees et sorties contextuelles dependant des 
phenomenes de coarticulation. 

Ces differents reseaux, qui correspondent chacun £ un 
phoneme de la langue, ont des densites de probabilites et 
20 des probabilites de transition qui sont determines par 
apprentissage sur un corpus de phrases enregistrees, avec 
1' usage d'un algorithme de type Baum-Welsh pour l'obtention 
•des differents parametres (voir Rabiner par exemple) . 

25 Le vocabulaire & reconnaitre varie en fonction de 

1 ' application : ce peut £tre un nom, ou un numero de 
telephone, ou des requetes plus compliquees, par exemple des 
phrases completes pour une application de dictee . II faut 
done specifier les mots a reconnaitre, leur enchainement, ou 

3 0 leur probability d' enchainement , la syntaxe des phrases si 



elle peut etre connue et decrite, pour utiliser cette 
connaissance supplementaire, simplifier les rtseaux de 
Markov et obtenir de bonnes performances en temps de calcul 
et en taux de reconnaissance. 

C'est le role du module de langage de representer 
cette connaissance. 

Dans l'exemple a caractere d' illustration de l'etat de 
l'art dans ce domaine, nous utiliserons des modeles de 
langage bases sur des grammaires probabilistes , plut6t que 
des moddles de langage stochastiques , comme ceux utilises 
par exemple dans les systemes de dictee. 

Une grammaire toute simple est celle constitute par la 
syntaxe article-nom-verbe, avec pour article « le », pour 
nom « chien » , et pour verbe « mange » ou <sc dort Le 
compilateur va transformer cette grammaire en un reseau de 
Markov, en mettant bout §l bout les papillons des differents 
phonemes, en eliminant les branches inutiles, et ce .pour 
toutes les phrases compatibles avec la syntaxe. L'etat 
initial est fixe. par un papillon specif ique repr§sentant le 
silence de debut de phase. II va Stre relie & 1 ' entree 
« pause » du papillon du phoneme /l/. Seules les branches 
qui sont accessibles par transition a partir de cette entree 
sont conservees , jusqu'a la sortie correspondant au phoneme 
/0/. Cette sortie et ensuite relive 3. 1' entree du papillon 
du /0/ correspondant au /!/♦ Puis par transition seules les 
branches utiles dans ce papillon sont conservees, et on 
continue ainsi jusqu'& epuisement des possibilites de la 
grammaire. Le reseau se termine necessairferaent sur un 
papillon modelisant le silence de fin de phrase. Des 
branches du reseau peuvent etre paralleles, si on a 
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plusieurs possibilities de mots comme « mange » ou « dort », 
si on veut introduire une pause optionnelle entre deux mots, 
ou si plusieurs phonetisations sont possibles pour un meme 
mot (par exemple « le » peut se prononcer [I0] ou [loe] 
5 suivant la region d'origine du locuteur) . 

De plus a la fin de chaque sous-reseau (un sous-reseau 
correspondant par exemple a un mot) , on introduit une 
transition « vide », c' est-&-dire avec une probability de 
transition egale a 1, attach^e k une « Etiquette », qui est 

10 une chaine de caracteres donnant le mot represents par ce 
sous-reseau (elle sera utilisee lors de la reconnaissance) . 

Le resultat de la compilation est un r£seau complexe 
(d'autant plus que la grammaire est compliqu§e) , optimise 
pour la reconnaissance d'un certain type d'enoncS. 

15 La construction du reseau markovien d'une application, 

dite compilation, comprend done trois phases representees 
Figure 3 . 

Pour illustrer ces phases, nous allons prendre un 
nouvel exemple simple base sur une grammaire selon le format 

2 0 ABNF du W3C : 

#ABMF 1.0 ISO-8859-1; 
language f r ; 

25 

root $main; 

public $main = $BEGSIL (tSte | jambe) $ENDSIL; 

Cette grammaire permet simplement de decrire le modele 

3 0 de langage qui permet de reconnaitre le mot tete ou le mot 
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jambe, de fa<pon isolee, c ' est-a-dire precedes et suivis d'un 
silence (et non pas de trouver une occurrence de ces mots 
dans des phrases plus complexes) . 

5 Lorsque cette grammaire est compilee au niveau 

syntaxique, on obtient le reseau de la Figure 4. 

Les transitions marquees W sont des marqueurs de mots 
qui serviront seulement k retrouver apres decodage, le mot 
10 ef f ectivement prononce . Les transitions marquees L signalent 
un mot effectif de la langue qui devra itre phonStise* 

Puis la compilation lexicale, qui traduit la 
phonetisation des mots et 1 ' introduction de cette phonetique 
dans le r§seau, produit le reseau de la Figure 5. . >, 

15 Sur ce graphe comme sur les autres, les numeros. des 

etats n'ont pas d' importance. On retrouve encore,,., les 
marqueurs de mots, qui sont situes dans le reseau de fa<?on 
arbitraire tant qu'ils sont bien presents sur tous/ les 
parcours du graphe qui repr6sente le mot associe, et pas sur 
2 0 les .autres. 

Et enfin, la compilation acoustique permet d'obtenir 
le reseau markovien final, par utilisation des reseaux 
acoustiques en lieu et place des phonemes associSs, 
application des conditions de raccordement contextuelles des 
25 modeles, et optimisation du. reseau. Ce reseau markovien est 
represents Figure 6 ♦ 

Dans ce dernier graphe, les marqueurs de mots sont 
toujours presents, et meme parfois dupliques, / 

Ce dernier graphe est uniquement present^ pour montrer 
30 que sa complexite et le nombre d' Stats qu'il comporte, sont 
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beaucoup plus grands que pour le niveau lexical. La 
compilation acoustique est de loin la phase la plus longue, 
produisant le r6seau le plus gros. 

5 Une fois le r€seau markovien de 1 ' appl icat ion 

construit comme decrit ci-dessus, il est alors utilise par 
le moteur de reconnaissance pour la comprehension (dScodage) 
des phrases pronpncees par 1 ' utilisateur . 

Dans un premier temps, comme il a ete decrit plus 
10 haut, ce signal de parole est converti grace a la phase 
d' extraction acoustique, en une suite de vecteurs 
acoustiques . 

II s'agit alors de determiner quel parcours dans le 
reseau markovien de 1 ' application, est le plus probablement 
15 associe a cette suite de vecteurs acoustiques, ou bien de 
decider que l'enonce n'est pas une des phrases que 
1' application est construite pour reconnaitre, 

Ceci est effectue en utilisant l'algorithme de 
decodage de Viterbi, par exemple. Le principe du d<Scodage 
20 est illustre Figure 7. 

Sur l'axe des abscisses du schema sont representes, en 
temps discret, les diff brents vecteurs acoustiques qui 
• arrivent regulierement au moteur de reconnaissance (par 
exemple ici, toutes les 16 ms) . 
25 En ordonn<Se, sont representes les differents etats du 

reseau markovien de 1 ' application, ainsi qu'ils ont et<§ 
obtenus apres la phase de compilation decrite plus haut, et 
qui utilisait & la fois la structure en papillon des 
phonemes elementaires de la langue, et la grammaire de 
30 1 ' application. 
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Ainsi, si 1'on represente tous les etats du rSseau sur 
1'axe vertical, seules certaines transitions entre ces Stats 
sont possibles, avec une certaine probabilite, et au depart, 
on est forcement dans un des etats associes au silence de 
depart, represente en double cercle sur la figure. 

On calcule alors, a chaque nouvelle trame, et en 
considerant toutes les transitions permises, le score du 
tneilleur chemin araenant a tout Stat Ej , 

II y a alors un elagage, c'e'st-a-dire que 1 ' on ne 
retient pour les developperaent s associes aux prochaines 
trames, que les n meilleurs candidats, ou, selon certaines 
variantes de 1 ' algorithme, que les etats qui ont un score 
suf f isamment proche du score du meilleur parcours (i.e. 
celui qui au temps Ti, obtient le score le plus Sieve) . 

A titre d'exemple, on a represente sur le schema le 
front a 1' instant t4, avec les. scores des differents 
candidats. Si, par exemple, on avait, choisi de limiter le 
front a 3 Stats, alors les hypotheses de developpement du 
fron.t representees en vert n'auraient pas ete explorees. 

De la meme maniere, si 1'on avait decide de ne 
conserver que les candidats ayant un score au moins Sgal a 
10% du score maximal, alors ces memes hypotheses n'auraient 
pas ete explorees. 

En realite, on conserve . ' generalement plusieurs 
centaines voire plusieurs milliers de candidats, selon la 
complexite de la grammaire. 

II faut remarquer que si la grammaire est complexe, il 
arrive frequerament que seule une petite portion du reseau 
markovien est ef f ectivement utilisee dans le decodage,' le 
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reste n'etant pas visit e a cause de 1'elagage lui-meme, qui 
supprime les hypotheses tres peu probables. 



Lorsque toutes les trames de parole ont ete 
5 consommees, on obtient alors, comme parcours le plus 
probable , le chemin de plus haut score obtenu par 
1' algorithme pour lequel l'etat de sortie du reseau est 
atteint. On remonte alors la suite des etats associes, du 
dernier au premier (backtracking en anglais) , pour obtenir 
10 la phrase qui a vraisemblablement ete prononcee, en 
utilisant les fronts conserves aux diff brents instants. 
Ceci est illustre Figure 8. 

Plutot que de ne retenir que la suite d 7 etats qui a 
15 obtenu le meilleur score, il est possible d'en conserver 
plusieurs, en prenant soin de ne prendre en consideration 
que les suites qui sont effectivement associ^es a des 
enonc€s differents (et non £ des variantes d'un meme enonce, 
avec par exemple des alignements temporels differents ou 
20 bien avec des variantes de prononciation differentes) . 

Cette technique, dite de decodage Nbest, peut etre 
utilisSe pour obtenir les n meilleurs candidats, avec pour 
chacun, un score associe, ce score £tant d'autant plus eleve 
que la phrase est plus probable. 

25 

Vis-£-vis du decodage de Viterbi, le decodage Nbest 
implique de conserver, dans le cas ou plusieurs transitions 
aboutissent a un seul noeud, non pas le seul antecedent qui 
produit ce meilleur score, mais plusieurs antecedents et 
3 0 leur score associe. 



Done par exemple, s'il s'avdre que le reseau final est 
en fait un arbre, e'est-a-dire si un noeud peut avoir 
plusieurs successeurs, raais qu'un noeud n' a toujours qu'un 
seul antecedent, alors la phrase ef fectivement prononcee 
peut etre s implement d<§duite £ partir du dernier noeud 
atteint, et il est alors possible de faire du decodage Nbest 
sans surcofit, juste en classant en fin de decodage les noeuds 
finaux par ordre de scores decroissant. 

La reconnaissance vocale selon 1'etat de l'art que 
nous avons decrit, utilise un reseau de Markov cach£ qui est 
construit par compilation en trois phases : compilations 
syntaxique, lexicale puis acoustique, cette derniere phase 
etant de loin la plus longue et produisant le reseau le plus 
gros . 

Le reseau obtenu est utilise par un algorithm^ de 
decodage de Viterbi avec 61agage, e'est-^-dire que seules 
les solutions qui semblent les plus prometteuses sont 
developpees, et les autres abandonnees . 

Par ce principe d'elagage, chaque reconnaissance 
utilise une sous-partie du reseau diff^rente. 

Nous avons vu que les moteurs de reconnaissance de 
l'art anterieur utilisent pour le decodage un reseau compile 
qui represente le vocabulaire act if, plus exactement 
1' ensemble des phrases que 1 ' application peut reconnaitre. 
Cette compilation est souvent un processus lent, m§me sur 
des machines puissantes, et le reseau compile obtenu peut 
etre assez encombrant en memoire. 
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Ceci est surtout penalisant pour les gros vocabulaires 
corame les listes de noms utilisees en assistance vocale pour 
les annuaires (plusieurs centaines de milliers de noms, 
voire plusieurs millions pour certaines grandes villes) , et 
5 qui, de plus, sont dynamiques : il faut pouvoir rapidement 
construire la liste associ^e S une zone geographique dans 
une requete d' elargissement autour d'une ville donnee par 
exemple . 

Comme on l'a vu dans la presentation de 1 ' etat de 

10 l'art, la reconnaissance vocale actuelle s'appuie sur un 
reseau de Markov qui est construit par etapes successives, 
la dernidre etape, la plus consommat rice en temps, 
produisant finalement un reseau directement utilisable dans 
1'algorithme de decodage. 

15 Le decodage lui-mSme est base sur 1'algorithme de 

Viterbi avec 61agage, c'est-S-dire que seules les hypotheses 
de plus haut score sont conserves dans le developpement 
temporel de la recherche des meilleurs candidats. 

Lorsque le vocabulaire d'une application est grand, ou 

20 lorsque les grammaires sont complexes, done que le reseau 
markovien de 1 ' application comprend un tres grand nombre 
d'£tats, il decoule de l'elagage que seule une petite partie 
du reseau sera ef f ectivement utilisee au cours d'un decodage 
donne, le reste etant representat if de parties du 

25 vocabulaire ou de la grammaire phonet iquement tres 
differentes de ce qui est eff ectivement prononce. 

Le principe de 1' invention est de construire 
dynamiquement, pour chaque decodage, la petite partie du 
reseau utile, plutot que, comme dans 1 ' etat de l'art, 



construire d' abord le reseau complet qui sera ensuite 
utilise tel quel dans tous les decodages futurs. 

Plus precis€ment , le principe de 1' invention est de 
construire un arbre phonetique representatif du vocabulaire 
de 1 ' application . Ce graphe correspond en quelque sorte au 
r£sultat des premieres etapes de compilation, jusqu'a la 
phase lexicale. 

La production de ce graphe est extrlmement rapide, 
mSme pour de trds grands vocabulaires' de plusieurs centaines 
de milliers de mots. 

Ce graphe est alors utilise au cours de chaque 
decodage, pour permettre de construire la partie du reseau 
de Markov acous.tique necessaire selon l'elagage present ... 

A cet effet, la pr^sente invention concerne, dans, .son 
acception la plus generale, un precede de reconnaissance 
vocale comportant une 6tape de representation ^.d' un 
vocabulaire traduit en . un modele de Markov, une etape de 
decodage par un algorithme de Viterbi et urie etape d'elagage 
des . solutions explorees, caract^risS en ce que ledit 
vocabulaire est decrit sous forme d'un arbre compose d'arcs 
et de nceuds entre lesquels sont definies des transcriptions 
decrivarit les unites phonetiques utilisees par le modele de 
langage de 1 ' application, et en ce que le reseau de Markov 
necessaire au decodage de Viterbi est construit au moins en 
partie de mani^re dynamique grace & des sous-unites 
Markoviennes . 

f 

Avantageusement, des mots diff6rents" du vocabulaire 
mais pr^sentant des segments phon<§tiques identiques en debut 
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de mot partageront, pour ces segments identiques, les memes 
branches de l'arbre phonetique. 

Selon un mode de mise en ceuvre , lesdites unites 
phonetiques sont des phonemes ♦ 
5 Selon un autre mode de mise en oeuvre, lesdites unites 

phonetiques sont des phonemes en contexte. 

La presente invention se rapporte egalement a un 
systeme de reconnaissance vocale pour la mise en oeuvre du 
10 precede comprenant au moins une m^moire et des moyens de 
calcul . 

On comprendra mieux 1' invention a 1 ' aide de la 
description, faite ci-apres a titre purement explicatif, 
15 d'un mode de realisation de 1' invention, en reference aux 
figures annexe es : 

• la figure 1 illustre un exemple de reseau de 
Markov correspondant k un phoneme ; 

• la figure 2 illustre un autre exemple de reseau de 
2 0 Markov correspondant a un phoneme ; 

• la figure 3 repr6sente la construction du reseau 
markovien d'une application, dite compilation ; 

• la figure 4 illustre un reseau obtenu lorsqu'une 
grammaire est compilee au niveau syntaxique ; 

25 • la figure 5 illustre un reseau produit par la 

compilation lexicale, qui traduit la phonetisation des mots 
et 1' introduction de cette phonetique dans le reseau ; 

• la figure 6 reprSsente un autre exemple de reseau 
markovien ; 



• les figures 7 et 8 illustrent le principe du 
decodage ; 

9 la figure 9 illustre un exemple de graphe pour la 
mise en oeuvre du procede selon 1' invention ; 

• la figure 10 illustre la forme d'un arbre ; 

• la figure 11 illustre un reseau markovien 
representant le phoneme [m] ; 

• la figure 12 illustre un reseau markovien extrait 
de celui de la figure 11 selon les contraintes de contexte ; 

• les figures 13, 14, 15, 16, 17, 18, 20 et 21 
representent d'autres r6seaxix.de Markov ; et 

• la figure 19 illustre un arbre. 

Dans un exemple particulier d' utilisation, 1' invention 
est particulierement adaptee a la reconnaissance vocale sur 
de tres grandes listes de mots ou de noms, par exemple. pour 
des applications d'annuaires vocaux. ,,, :? 

La description de 1' invention sera done faite, de 
fagon non limitative, pour ce type d' application . 

L'acces a 1 ' annuaire se fait pour 1 ' utilisateur au 
travers d'une suite de questions-reponses , dont un exemple 
est donnS Figure 9 . 

Dans cette sequence de questions, certaines vont 
occasionner des rieponses possibles pour un vocabulaire 
constitue par une longue liste de noms : par exemple 
« Reconnaissance Norn » pour une ville importante, si la 
liste des abonnes a et<§ mise a jour. Cettie liste doit 
d' autre part etre Slargie dans le cas ou le' dialogue mene a 
1' extension aux localites voisines, e'est-^-dire si la 
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recherche doit §tre etendue a des villes proches de la ville 
initiale de recherche • 

C'est principalement dans ces cas que la technologie 
actuelle de l'etat de 1 ' art est inut ilisable , car la 
5 compilation du reseau markovien qu'elle necessite est 
beaucoup trop lente . 

On voit egalement sur ces graphes 1' usage du decodage 
Nbest, qui permet d'enumerer les solutions possibles et de 
demander la validation par 1'utilisateur . 
10 Ces listes sont construites par interrogation d'une 

base de donnees, qui, pour chaque ville, donne les abonnes 
tel^phoniques et la ou les phon^tisations possibles de ces 
noms . 

Nous allons decrire le f onctionnement detaille de 
15 1 ' invention en utilisant une liste reduite de noms, afin de 
rendre clairs les developpements , meme s'il s'avere que 
l'inter^t de 1' invention reside principalement dans son 
efficacite pour les grands vocabulaires ♦ 

Prenons les noms suivants, avec leur phonetisation : 

20 



Morand 


m . 


, o . 


. r . 


. an 


Moraux 


m . 


. o . 


. r . 


, au 


Morazin 


m . 


. o . 


. r , 


. a 


Morel 


m . 


. o . 


. r . 


. ai 


Morice 


m . 


. o , 


, r . 


i 


Morin 


m . 


, o . 


. r . 


. in 



z . an 
1 . (e+0) 

25 Morice m • o • r . i . s . (e+ ( ) ) 



Dans 1' invention propos^e, cette liste n'est done pas 
utilisee pour produire un reseau classique par compilation 
3 0 tel que deer it dans l'£tat de l'art present e plus haut. Elle 



est au contraire transform^ en un arbre phonetique 
deterministe. 

Pour les noms donnes ci-dessus, cet arbre prendra la 
forme telle qu' illustree Figure 10. 

II faut noter que la creation d'un tel graphe est 
extremement rapide, puisque sur une machine de calcul de 
Hewlett Packard de type Pentium 3 de 1GHz de frequence 
d'horloge, il faut par exemple 0,4 seconde pour former 
1' arbre d'une ville de 60 000 habitants , alors que la 
compilation standard complete de cette meme liste prend sur 
la meme machine environ 8 minutes, ce qui est incompatible 
avec le temps d'attente d'une personne utilisatrice du 
service. C'est en effet la phase de construction du rSseau 
markovien final qui est la plus longue . 

L' arbre precedent est utilise, selon la presente 
invention, dans le decodage de Viterbi pref erentiellem^nt de 
la maniere suivante (des variantes seront presentees . plus 
loin) : 

Au d<§marrage du decodage, nous sommes dans l'etat 
initial du graphe represents par la boite numerotee 0 . 

Ce graphe montre que le premier phoneme est un [m] , 
avec a gauche un silence de debut de mot, puisque c'est le 
premier etat, et a droite un unique phoneme [o] . 

Si par . exemple, dans le jeu des reseaux markoviens 
elementaires utilises, selon l'etat de 1'art, le phoneme [m] 
est represents par le reseau de la Figure 11 . ( 
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Alors, puisque a gauche du phoneme [m] on a seulement 
un silence, qui correspond a 1' entree qe__nijpau, et puisque a 
droite on a un seul phoneme [o] , qui correspond a la sortie 
qs_m_jpom, alors seuls les Stats grisSs du modele elSmentaire 
5 seront ef f ectivement accessibles et utiles. 

On composera done le rSseau illustrS Figure 12 extrait 
du precedent selon les contraintes de contexte* 

On commencera le d6codage de Viterbi avec Slagage sur 
10 ce reseau. Lorsqu'une des hypotheses developpSes dans le 
front atteindra 1'etat qs_mjpom, il faudra alors construire 
la suite du r6seau dynamiquement pour poursuivre le 
decodage . 

Pour cela on utilise I 7 arc phonetique pour trouver que 
15 le phoneme suivant est un [o] , pris entre le phondme [m] et 
le phoneme [r] . 

La situation est identique : 

Si par exemple le phoneme [o] est represents par le 
reseau markovien de la Figure 13, alors la partie utile, 
20 representee par les noeuds grists sur le dessin, sera du fait 
des contextes, conforme k la Figure 14. 

Et on obtiendra done, & ce stade du decodage, le 
reseau dynamiquement -construit de la Figure 15. 

25 Encore une fois, lorsqu'une des hypotheses du decodage 

de Viterbi atteindra I'etat final de ce rSseau (note ici 
qs_o__r) , on utilisera l'arbre phonetique pour constater que 
le phonSme suivant est un [r] . 

A ce stade, ce reseau construit dynamiquement est bien 

3 0 la sous -partie du reseau complet qui aurait ete obtenu par 



19 

une compilation tradit ionnelle . La seule difference est 
qu'il est construit a la demande, et non avant usage de 
maniSre complete et statique. 

En d'autres termes, l'elagage n'a pas encore d' impact 
sur le d6veloppement du r§seau qui reduirait effectivement 
les portions de r6seau dSveloppSes . 

Nous allons voir maintenant ce point particulier dans 
notre exemple en poursuivant le dScodage dans un contexte 
phonetique plus riche : 

En effet, le [r] est cette fois present dans un 
contexte phonetique plus riche, puisqu'on trouve a sa droite 
dans l'arbre les phonemes [in], [i] , [ai] , [a] , [au], [an]. 

Si le [r] est reprSsente par le reseau de la Figure 
16, alors la partie utile de ce contexte sera conformed & la 
Figure 17. 

, Et finalement, on arrivera a ce stade au reseau .actif 
dynamiquement construit represents sur la Figure 18. 

Supposons done que / au cours du dScodage de Viterbi 
s'appuyant sur ce rSseau, une des hypotheses amene a 1'etat 
de . .sortie qs_r_i (parce que 1 ' utilisateur prononce 
effectivement Morice) avec un score tellement eleve que les 
autres hypotheses, arrivant dans les autres etats de sortie, 
soient eliminees du front. 

Alors au cours du d^veloppement dynamique suivant , 
seule la branche de 1' arbre . associee a cette hypothese sera 
developpee, les autres Itant abandonnees. Tout se passe 
comme si le decodage se poursuivait sans les branches de 
1'arbre presentees en pointilles sur la Figurefl9. 

Ainsi cette fois, en consequence de l'elagage, le 
reseau dynamiquement developpS selon le principe de 
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l r invention n'est plus 1' image du reseau complet obtenu par 
compilation selon l'etat de l'art : c'est un reseau plus 
petit . 

L'exemple developpg ici est simple par souci de 
5 clarte, mais dans des applications reelles, la partie du 
reseau ef f ectivement d^veloppee est tres faible comparee au 
reseau classique obtenu par compilation. 

On peut done dire que, selon l'etat de l'art, le 
reseau markovien correspondant au vocabulaire de 
10 1' application est construit une fois pour toutes, et que 
pour chaque decodage, en raison de l'elagage mis en oeuvre au 
cours du decodage, seule une petite partie de ce reseau est 
eff ectivement utilisee . 

Tandis que, selon le principe de 1' invention, le 
15 r6seau complet n'est jamais construit, mais la partie du 
reseau eff ectivement necessaire pour une reconnaissance 
donnee est dynamiquement construite au cours du decodage . 

Dans 1' implementation que nous avons presentee, la 
20 partie du reseau de Markov cache de 1 ' application qui est 
necessaire pour un decodage est construite dynamiquement, 
etape par 6tape, en d6coupant les reseaux markoviens 
elementaires afin d'en extraire, selon les contextes 
d' apparition des phonemes dans l'arbre de 1 ' application, la 
25 sous-partie utile. 

L'arbre phonetique de 1 ' application joue dans ce 
processus un role central pour determiner ces contextes, de 
meme qu' il permet d'effectuer un decodage Nbest de maniere 
efficace et simple, du fait meme de sa structure d'arbre, 
3 0 par opposition a un graphe. 
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II existe d'autres implementations de 1' invention 
proposee, qui conserve le r61e central de cet arbre pour les 
raisons dScrites. 

Nous allons decrire une.de ces alternatives, de fa<?on 
5 non exclusive d'autres variantes. 

Supposons que nous ayons, pour une langue donnee, 4 0 
reseaux markoviens elementaires representant les phonemes 
utilises dans cette langue pour phonetiser les mots* Ces 

10 reseaux, comme dans les quelques exemples donnes, ont des 
etats d' entree et de sortie pour representer les contextes 
phonetiques', selon des regies strictes : par exemple un etat 
qs_x__i ne peut Stre connecte qu' a un 6tat qe_y_i , xet y 
6tant deux reseaux elementaires quelconques . 

15 oil peut construire alors un r£seau global dans lequel 

les 40 sous-r6seaux sont mis en parallele, et de plus, 
toutes les sorties de chaque reseau sont connectees pa£ des 
transitions vides & toutes les entrees de tous les reseaux 
qui lui sont compatibles selon les contextes phonetiques 

20 (c' est-§.-dire qu'on a un reseau markovien - correspondant a 
toutes les suites de phonemes possibles) . 

II est alors possible, au lieu de developper 
dynam iquement comme precederament la partie utile- -du reseau, 
d'utiliser l'algorithme de Viterbi dans lequel les etats 

25 manipules sont des paires constitutes d' un gtat du reseau 
complet forme, comme decrit ci-dessus et d'lin noeud de 1 ' arbre 
phonetique. 

Lorsqu'une hypothese amene a un des etpts de sortie 
d'un papillon, alors on verifie dans 1 ' arbre phon<§tique 
30 qu'il y a bien des branches compatibles avec le conteicte 
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phonStique associe a cet Stat* Dans le cas contraire, on 
abandonne le developpement de cette hypothese, comme si elle 
etait victime d'un elagage standard. 

Cette methode est f one t i onne 1 1 ement equivalente k la 
5 methode proposee precedemment , mais elle est plus couteuse 
en temps de calcul, puisque des hypotheses sont developp§es 
meme s'il s'avere ultSrieurement qu'elles conduisent a des 
contextes phonetiques qui ne sont pas presents dans l'arbre 
de 1 ' application, et done qu' elles seront de toute fagon 
10 eliminees . 

Pour illustrer ce point, on peut reprendre l'exemple 
du phoneme [r] utilise dans notre exemple precedent. En 
raison de la structure particulidre de l'arbre de notre 
exemple, seuls les etats grisSs du raodele complet, et les 
15 transitions entre ces etats, etaient finalement utiles. On 
se reportera k cet effet & la Figure 20. 

Selon la description de la variante decrite ici, les 
autres transitions vers toutes les sorties non grisees 
seraient egalement developpees, mais seraient ensuite 
20 abandonnges quand 1'etat de sortie serait atteint, 
puisqu'aucun des contextes associes k ces etats n'est 
present dans l'arbre de cette application simple'. 

II est possible- de remedier a ce surplus de travail en 
ajoutant des transitions vides nouvelles dans chacun des 
25 reseaux €l£mentaires utilises, qui se comportent comme des 
portes, e'est-a-dire qui peuvent §tre ouvertes ou fermees. 

Dans le cas de l'exemple du reseau associS au phoneme 
[r] ci-dessus, on aurait par exemple le reseau de la Figure 
21. 



ler uepoi 



23 

Sur ce modele, les transitions en pointilles montre 
des transitions de type porte « ouverte », du fait du 
contexte d' apparition du [r] , qui fait que tous les etats de 
sortie ne peuvent etre atteints. 
5 Pour les etats de sortie actives, en gris§ sur le 

schema, les portes associees sont fermees, et sont 
representees en traits pleins . 

Dans le front de developpement utilise par 
1' algorithme de decodage de Viterbi avec elagage, il faut 

10 non seulement conserver, comme decrit plus haut, une 
reference £ 1'etat du r^seau associS a 1'hypothese que cet 
element du front represente, mais aussi conserver dans des 
variables appropriees l'etat des portes (ouvertes ou 
ferrates) en tenant compte des contextes droits d' apparition 

15 du phoneme dans l'arbre. 

Par exemple, il est possible que dans un m§me front, 
deux references differentes au meme phondme done au meme 
reseau soient pr^sentes,. mais dans des contextes phonetiques 
differents et done avec des posi t ionnements des portes 

2 0 dif f <§rentes . 

Cette variante est ainsi f onctionnellement equivalence 
a 1 ' implementation standard presentee. Elle necessite 
neanmoins pour etre aussi efficace, de rajouter ces 
transitions vides de type porte et de . les controler pour 

25 chaque element du front au cours du decodage en fonction des 
contextes rencontres a droite de chaque phoneme dans l'arbre 
phone ti que . 
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Nous avons vu que l'arbre phonEtique est central pour 
1' invention proposee, principalement pour permettre un 
decodage Nbest sans surcout . 

Bien sur, il est possible de stocker cet arbre de 
5 maniere plus compact e, par exemple en stockant un graphe 
Equivalent & l'arbre dont les parties droites communes & 
plusieurs branches sont factorisees. 

Par contre, cette forme compacte sera utilisee comme 
representation de l'arbre lui-meme de la maniere standard 
10 decrite plus haut . 

L' invention est d<§crite dans ce qui precede a titre 
d' exemple. II est entendu que l'homme du metier est & meme 
de r^aliser differentes variantes de 1 1 invention sans pour 
15 autant sortir du cadre du brevet. 
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REVEND I CATIONS 

1. Procede de reconnaissance vocale comportant line 
etape de representation d'un vocabulaire traduit en un 
5 module de Markov, une £tape de decodage par un algorithme de 
Viterbi et une 6tape d'£lagage des solutions explorSes, 

caracterise en ce que ledit vocabulaire est decrit 
sous forme d'un arbre compost d'arcs et de noeuds entre 
lesquels sont definies des transcriptions decrivant les 
10 unites phonetiques utilisees par le modele de langage de 
1' application, et en ce que le reseau de Markov necessaire 
au decodage de Viterbi est construit au moins en partie de 
maniere dynamique grace a des sous-unites Markoviennes, 

15 2'. Procede de reconnaissance vocale selon la 

revendication 1, caracterise en ce que des mots differents 
du vocabulaire mais presentant des segments phonetiques 
identiques en d€but de mot partageront , pour ces segments 
identiques, les memes branches de 1' arbre phonetique. 

20 

3 . Procede de reconnaissance vocale selon la 
revendication 1 ou 2 , caracterise en ce que lesdites unites 
phonetiques sorit des phonemes. 

25 4 . Procede de reconnaissance vocale selon la 

revendication 1 ou 2, caracterise en ce que lesdites unites 
phonetiques sont des phonemes en contexte . 

f 

5 . Systeme de reconnaissance vocale pour la mise en 
30 ceuvre du procede de reconnaissance vocale selon 1 ' une 
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quelconque des revendi cat ions precedent es comprenant au 
moins une memoire et des moyens de calcul. 
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